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摘要 测验 模式 效应 (Test Mode Effect, TME) 是 指 同一 测验 采用 不 同 测验 形式 施 测 而 产生 的 
测验 功能 差异 。TME 的 存在 会 对 测验 公平 、 选 拔 标准 和 测验 等 值 等 产生 影响 ， 因 此 对 TME 
进行 准确 检测 和 合理 解释 具有 重要 意义 。 通 过 对 TME 的 来 源 、 检 测 〈 包 括 实 验 设计 和 检测 
方法 ) 以 及 研究 结果 进行 系统 梳理 ， 全 面 展示 TME 研究 的 方法 论 。 对 TME 模型 进行 进 一 
步 解 释 、 对 TME 研究 中 的 测验 形式 进行 拓展 以 及 将 TME 的 研究 成 果 应 用 于 我 国 的 大 规模 
教育 测评 项 目 ， 都 是 TME 领域 的 未 来 重要 发 展 方向 。 

关键 词 测验 模式 效应 , 测验 公平 , 测量 不 变性 , 计算 机 测验 


1 引言 
随 着 计算 机 技术 的 进步 和 网 络 的 普及 , 计算 机 测验 已 经 在 测量 和 评估 领域 得 到 广泛 使 用 。 
大 到 国际 大 规模 测评 项 目 ， 小 到 课 泻 测试， 都 越 来 越 多 地 使 用 计算 机 进行 施 测 。 测 验 形 式 正 


经 历 着 从 传统 “ 纸 笔 测验 (Paperbased Testing, PBT)” 向 “计算 机 测验 (Computer-based Testing, 
CBT)” 的 转变 。 与 PBT 相 比 ，CBT 具有 很 多 优点 ， 比 如 : (1) 采用 计算 机 辅助 测验 ， 测 量 
更 加 高 效 、 公 平 ; O) 可 以 呈现 高 生态 效 度 和 高 交互 性 的 新 突 题 型 ， 增 加 被 试 的 作答 兴 
(Pomplun etal., 2006); (3) 可 以 方便 记录 被 试 的 作答 步骤 、 动 作 序列 和 作答 时 间 等 过 程 性 
信息 ， 从 而 更 全 面 地 评价 被 试 。 正 因 如 此 ，CBT 己 在 国际 学 生 评估 项 目 (Programme for 


International Student Assessment, PISA)、 国 际 数 学 和 科学 趋势 研究 (Trends in International 


Mathematics and Science Study, TIMSS) 、 美 国 国 家 教育 进展 评估 (National Assessment of 


Educational Progress, NAEP) 等 大 规模 测评 项 目 中 得 到 广泛 应 用 〔〈 檀 慧玲 等 ,2018) 。 
尽管 大 多 数 测验 都 在 朝 着 CBT 的 方向 发 展 ， 但 这 并 非 一 个 简单 的 过 程 。 在 进行 测验 
式 的 转化 之 前 ， 研 究 者 和 实践 者 面临 一 个 关键 性 问题 : 当 同 一 测验 采用 不 同 测验 形式 〈 比 如 


PBT 和 CBT) 施 测 时 , 其 测验 结果 不 一 定 相同 , 因而 不 能 盲目 地 对 它们 进行 直接 比较 (Jerrim， 
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2016)。 这 种 由 测验 形式 不 同 而 带 来 的 测验 功能 差异 , 被 称 为 测验 模式 效应 (Test Mode Effect, 
TME; Kroehne et al., 2019; OECD, 2017)。 在 已 有 研究 中 ，TME 在 绝 大 多 数 情况 下 特 指 PBT 
和 CBT 这 两 种 测验 形式 间 的 差异 。 考 虑 到 测验 形式 从 PBT 向 CBT 转变 是 大 势 所 趋 ， 因 此 
对 TME 进行 研究 具有 以 下 重要 意义 : 

首先 ,对 TME 进行 研究 可 以 促进 测验 公平 .测验 公平 是 衡量 测验 质量 的 一 个 重要 方面 ， 
一 直 受 到 测验 开发 者 、 使 用 者 、 心 理 测量 学 家 和 普通 大 众 的 广泛 关注 (Kline, 2013)。 一 个 公 
平 的 测验 应 该 能 给 被 试 提供 平等 的 机 会 ， 来 反映 他 们 掌握 的 与 测验 目的 相关 的 知识 和 技能 。 
然而 , 不 同 测验 形式 间 的 转换 可 能 会 引入 与 测验 目的 无 关 的 变量 , 比如 被 试 操作 计算 机 的 能 
力 可 能 会 对 其 CBT 的 成 绩 产生 影响 。 因 此 , 研究 TME 有 助 于 明确 和 控制 无 关 因 素 的 影响 ， 
从 而 提高 测验 的 公平 性 。 

其 次 ， 对 TME 进行 研究 可 以 保障 选拔 结果 的 可 比 性 。 很 多 大 型 考试 都 曾 出 现 同时 使 用 
PBT 和 CBT 的 情况 。 比 如 ，TOEFL 就 同时 存在 PBT 和 基于 互联 网 的 测验 (Internet-based 
Testing, iBT) 等 多 种 测验 形式 。 考 虑 到 TME 的 存在 , 美国 教育 考试 服务 中 心 在 使 用 PBT 时 ， 
并 不 是 将 CBT 中 的 题目 直接 转移 到 PBT 上 ， 而 是 有 针对 性 地 对 PBT 中 的 测验 内 容 、 实 施 
过 程 和 评价 标准 等 进行 修改 , 以 保障 不 同 测验 形式 下 的 结果 有 具有 可 比 性 ， 从 而 增加 选拔 与 评 
价 结果 的 可 信 度 。 

最 后 ， 对 TME 进行 研究 可 以 帮助 获得 准确 的 等 值 结果 。 随 着 CBT 的 广泛 使 用 ，PISA 
等 国际 测评 项 目 已 经 出 现 “ 不 同 测验 周期 使 用 不 同 测验 形式 ”的 情况 (Feskens et al., 2019)。 
TME 的 存在 会 影响 不 同 测验 周期 学 生 分 数 等 值 结果 的 准确 性 ， 使 得 研究 者 没 法 合理 刻画 学 
生 的 能 力 发 展 趋势 ， 进 而 削弱 教育 评估 项 目的 意义 。 因 此 ， 对 题库 中 可 能 存在 TME 的 题目 
进行 检测 ， 可 进一步 改善 测验 和 题目 质量 ， 从 而 保障 教育 评估 项 目的 有 效 性 。 

鉴于 这 一 主题 的 重要 性 ， 本 文 对 TME 进行 系统 述评 ， 以 期 为 测量 研究 者 与 实践 者 了 解 
TME 的 来 源 、 检 测 方法 和 研究 思路 提供 帮助 。 本 文 将 按 以 下 顺序 进行 组 织 : 首先 介绍 TME 
的 来 源 ， 然 后 探讨 TME 的 检测 (包括 控制 TME 影响 的 实验 设计 和 对 TME 进行 检测 的 方 
法 )， 接 着 总 结 TME 研究 的 结果 与 不 足 ， 最 后 展望 TME 的 未 来 研究 方向 。 


2 TME 的 来 源 
TME 来 源 于 测验 形式 不 同 所 带 来 的 差异 ， 这 种 差异 可 以 来 自 四 个 层面 : 测验 层 
目 层面 .被 试 层面 和 评分 者 层面 , 接 下 来 分 别 介绍 这 四 个 层面 的 差异 如 何 导致 TME 的 产生 。 


& 


2.1 测验 层面 


测验 层面 的 差异 是 指 由 于 不 同 测验 形式 具有 的 特征 不 同 而 导致 的 差异 ， 比 如 PBT 与 
CBT 在 作答 设备 、 作 答 过 程 中 是 否 允许 检查 并 修改 答案 、 测 验 过 程 中 有 无 监督 以 及 测验 计 
时 和 选 题 方 式 等 方面 都 具有 不 同 的 特征 。 有 具体 来 说 : 

(1) 作答 设备 。 在 PBT 中 ， 被 试 通常 使 用 纸 笔 进行 作答 ， 而 在 CBT 中 ， 被 试 需要 在 
显示 屏 上 阅读 题目 ， 并 使 用 鼠标 和 键盘 进行 作答 。 屏 莫大 小 、 分 辨 率 和 刷新 速度 等 都 可 能 对 
被 试 在 计算 机 上 的 作答 产生 影响 。Ziefle(1998) 对 被 试 在 PBT 和 两 种 屏幕 分 辨 率 (1664x1200 
All 832x600) F CBT 的 阅读 表现 及 感受 到 的 疲劳 程度 进行 比较 ,结果 发 现 : 被 试 在 PBT 中 
的 表现 显著 好 于 两 种 分 辩 率 下 CBT 的 表现 ; 而 且 分 辨 率 越 高 , 被 试 感受 到 的 疲劳 程度 越 轻 。 
在 屏幕 大 小 方面 ， 其 对 TME 的 影响 因 人 而 异 ， 但 总 体 来 说 ， 更 大 的 屏幕 会 增加 文字 的 可 读 
性 ， 从 而 提高 测验 表现 (Bridgeman et al., 2003 )。 

(2) 是 否 允 许 检查 并 修改 答案 。 在 PBT 中 ， 被 试 可 以 不 按 题 目的 呈现 顺序 进行 作答 ， 
甚至 可 以 随时 对 已 作答 题目 进行 检查 并 修改 答案 ;而 有 些 CBT (如 计算 机 化 自 适应 测验 
[Computerized Adaptive Testing, CAT) 一 般 不 允许 被 试 返回 检查 并 修改 答案 ， 主 要 是 因为 考 
试 机 构 担 心 提供 修改 机 会 会 带 来 两 个 问题 “聪明 ”被 试 或 “聪明 ”备考 机 构 所 指导 的 被 
试 通过 采用 Wainer 策略 (Wainer, 1993) 和 Kingsbury 策略 (Kingsbury, 1996) 等 作 浆 策略 获 
得 虚 高 的 分 数 ， 从 而 影响 测验 的 公平 性 、 公 正 性 和 准确 性 ，@ 增加 测验 时 间 ， 相 应 地 增加 
测验 费用 。CAT 不 提供 修改 功能 也 会 给 被 试 带 来 两 方面 的 影响 : @ 被 试 在 PBT 中 惯用 的 作 
答 策 略 不 能 用 于 CAT， 会 给 他 们 带 来 焦虑 和 压力 ; @ 若 被 试 完全 有 能 力 答对 某 道 题目 但 是 
键入 或 点 击 失误 了 , 不 允许 修改 会 导致 其 能 力 被 低估 ; 相反 ， 若 被 试 没有 能 力 答对 某 道 题目 
但 是 猜 对 了 ， 不 允许 修改 会 导致 其 能 力 被 高 估 《〈 陈 平 , 丁 树 良 , 2008; 高 旭 亮 等 ,2016; Mii 
等 , 2015 )。 不 提供 修改 机 会 的 CAT 可 能 导致 TME 的 产生 。 

(3) 测验 过 程 有 无 监督 。 一 般 情况 下 ，PBT 的 实施 过 程 中 往往 有 主 试 在 场 监督 ， 而 对 
于 部 分 CBT (比如 通过 网 络 进行 的 在 线 测验 ) 很 有 可 能 会 在 无 人 监督 的 情况 下 开展 , 这 也 有 
可 能 导致 TME 的 产生 。Goldberg 和 Pedulla (2002) 比较 被 试 在 PBT、 有 监督 CBT 和 无 监 
督 CBT 的 GRE 分 数 ,结果 表明 :被 试 在 PBT 和 有 监督 CBT 中 的 表现 显著 好 于 无 监督 CBT. 
测验 过 程 有 无 监督 可 能 会 对 被 试 的 作答 动机 产生 影响 ， 从 而 影响 其 在 测验 中 的 表现 。 

(4) 测验 计时 与 选 题 方式 。 在 CBT 中 ， 计 算 机 为 更 精细 的 考试 流程 设计 提供 了 可 能 : 
O 测验 开发 者 可 以 将 测验 的 计时 设计 为 “以 单 道 题目 为 单位 ””“ 以 测验 模块 为 单位 ”或 “以 
整个 测验 为 单位 ”; @ 测验 的 组 卷 不 再 拘泥 于 固定 试题 , 而 允许 被 试 作答 与 自身 能 力 匹 配 的 
题目 ( 即 CAT)。 昌 然 没 有 研究 直接 表明 不 同 的 测验 计时 设计 会 引起 TME, 但 是 相 比 于 以 单 
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道 题 为 单位 的 计时 ， 目 前 主流 的 大 型 CBT (如 PISA 和 NAEP) 通常 以 一 个 测验 模块 为 单位 
进行 计时 ， 且 部 分 CBT 〈 如 GRE) 允许 被 试 选择 偏好 的 时 间 呈 现 方式 〈 即 显示 或 不 显示 倒 
计时 )。 另外 , 相 比 于 可 能 包含 简 单 题 的 PBT, CAT 中 高 能 力 水 平 被 试 的 测验 过 程 可 能 更 “ 吃 
力 ” 因为 总 是 作答 与 自身 能 力 水 平 匹配 的 难题 。 为 探究 CAT 匹配 被 试 能 力 的 选 题 策略 是 否 
会 增加 被 试 的 测验 焦虑 程度 进而 引起 TME, Powers (1999) 基于 GRE 的 PBT 和 CBT 样本 
进行 回归 分 析 ， 发 现 被 试 在 两 种 测验 形式 下 的 焦虑 与 GRE 分 数 之 间 的 关系 并 无 显著 差异 ， 
而 且 自 适应 的 选 题 策略 并 未 加 剧 被 试 的 测验 焦虑 。Fritts 和 Marszalek (2010) 分 析 中 学 生 的 
学 业 进 度 测验 (measures of academic progress) 结果 后 发 现 : 在 控制 被 试 对 考试 的 基线 焦虑 
水 平和 对 电脑 使 用 的 焦虑 后 ， 相 比 于 CAT， 被 试 在 PBT 上 表现 出 更 高 的 焦虑 水 平 。 
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2.2 题目 层面 

题目 层面 的 差异 来 源 于 题目 本 身 的 属性 , 这 些 属性 可 能 在 不 同 测验 形式 下 的 表现 不 同 ， 
从 而 导致 TME 的 产生 。 具 体 包 括 : 

(1) 题目 呈现 方式 。 呈现 方式 包括 题目 的 字体 、 字号、 粗细 和 颜色 (Bernard et al., 2002; 

Bernard & Mills, 2000)、 每 一 行 的 文字 长 度 (Chaparro et al., 2002)、 页 中 呈现 的 题目 数 
量 和 行 数 (Duchnicky & Kolers, 1983) 以 及 每 一 页 中 空白 部 分 的 面积 大 小 (McMaullin et al., 
2002) 等 。 由 于 CBT 的 形式 多 样 且 多 借助 现成 软件 或 平台 进行 施 测 ， 很 难保 证 所 有 题目 都 
以 相同 方式 呈现 给 被 试 ， 从 而 导致 TME 的 产生 。 

(2) 题目 类 型 。 题 目 类 型 可 能 会 影响 被 试 和 题目 间 的 交互 方式 ， 从 而 影响 被 试 的 作答 
表现 (Kr6hne & Martens, 2011)。 题目 类 型 主要 包括 两 大 类 : 选择 题 与 建构 题 。 对 于 选择 题 ， 


特别 是 当 题 目 较 短 时 ,不 同 测验 形式 的 差异 较 小 , 较 少 检测 出 TME(Buerger et al., 2016; Lynch, 


2022)。 而 对 于 建构 题 ， 考 生 在 PBT 上 的 表现 倾向 于 比 CBT 更 好 (Bennett etal., 2008)。 这 
可 能 源 于 题目 交互 方式 的 复杂 程度 的 变化 ， 交 互 方式 较 复杂 的 题目 更 容易 影响 被 试 在 CBT 
上 的 成 绩 〈Kingston, 2008)。 例 如 ， 当 题目 包含 较 长 的 文本 或 作答 过 程 涉及 使 用 鼠标 、 滚 轮 
和 下 拉 菜 单 等 ， 题 目的 作答 难度 会 增加 (Poggio etal., 2005)。 另 外 ，Liu 等 人 (2016) 对 美 
国 基 础 教育 评价 系统 (PARCC) 的 数学 建构 题 进行 分 析 后 发 现 : 相对 于 PBT 被 试 群体 , CBT 
被 试 群体 在 低 年 级 3-8 年 级 ) 题目 上 的 表现 更 好 ; 而 对 于 高 年 级 的 建构 题 ， 结 论 则 相反 。 
这 意味 着 题 型 在 不 同 测验 形式 上 的 差异 还 可 能 源 于 题目 所 涉及 的 认 知 过 程 不 同 。Johnson 和 
Green (2006) 通过 观察 和 访谈 小 学 生 后 发 现 ， 约 1/3 的 被 试 在 作答 不 同 测验 形式 下 的 题目 
时 会 采用 不 同 的 作答 策略 。 而 对 于 作文 任务 ， 研 究 认为 被 试 在 CBT 上 的 表现 优 于 PBT， 或 


两 者 没有 显著 差异 (Lee, 2002; Lynch, 2022; Zhi & Huang, 2021). Li (2006) 让 被 试 在 作答 


学 术 英 语 任 务 (English for academic purposes) 时 进行 出 声 思 维 ， 发 现 被 试 在 CBT 上 展现 出 
更 高 阶 的 思维 能 力 , 并 且 比 PBT 做 出 更 多 的 修改 。 相 比 于 关注 单词 水 平 的 修改 , 被 试 在 CBT 


上 更 多 地 进行 句子 和 段落 层次 的 完善 和 组 织 (Chan et al., 2018). 


2.3 被 试 层面 
被 试 层面 的 差异 来 源 于 被 试 本 身 的 属性 , 这 些 属性 并 非 测验 想 要 测量 的 特质 , 但 是 它们 
在 不 同 测验 形式 上 的 差异 可 能 会 导致 TME 的 产生 。 具 体 包括 : 

(1) 人 口 学 变量 。 性别 \ 年龄、 种 族 和 社会 经 济 地 位 等 人 口 学 变量 并 不 直接 导致 TME, 
而 是 通过 影响 与 测验 目的 相关 的 被 试 能 力 等 来 间接 导致 TME。 比 如 ， 老 年 人 可 能 由 于 使 用 
计算 机 的 熟练 程度 不 如 年 轻 人 ， 因 而 在 CBT 上 的 表现 更 差 (Chua etal., 1999); 但 也 有 研究 
表明 ， 年 龄 带 来 的 差异 并 不 像 研 究 者 预期 的 那样 显著 〈Weigold et al., 2016). Fouladi 等 人 

(2002) 发 现 不 同 测验 形式 间 的 结果 存在 较 大 差异 , 但 在 控制 性 别 和 种 族 的 影响 后 ,不 同 测 
验 形式 间 的 结果 差异 显著 减 小 。 

(2) 计算 机 的 熟练 程度 。 对 计算 机 使 用 越 熟练 ， 在 CBT 中 的 表现 就 越 好 (Jerrim et al,， 
2018; Pomplun, 2007)。 一 方面 ， 对 计算 机 越 熟练 ， 在 作答 时 的 操作 就 越 快捷 ， 另 一 方面 ， 被 
试 的 学 习 过 程 和 测试 过 程 的 形式 相 匹配 时 ,他 们 的 作答 分 数 会 更 高 ,， 即 存在 一 定 的 迁移 适用 
加 工 过 程 〈transfer appropriate processing; Clariana & Wallace, 2002)。 但 也 有 研究 发 现 ， 使 用 
计算 机 的 熟练 程度 不 会 对 被 试 在 CBT 上 的 结果 产生 影响 (Jeong, 2012). 

(3) 作答 动机 。 与 低 利害 测验 相 比 ， 参 加 高 利害 测验 的 被 试 具有 更 高 的 作答 动机 ， 从 
而 在 PBT 和 CBT 上 有 更 相近 的 表现 (Rowan,2010)。 有 意思 的 是 ， 也 有 研究 发 现 : 与 PBT 
相 比 ， 被 试 对 CBT 普遍 有 更 好 的 体验 、 更 高 的 作答 动机 和 自我 效能 感 ， 但 在 CBT 上 的 得 分 
却 更 低 (Chua, 2012). 


2.4 评分 者 层面 

评分 者 层面 的 差异 本 质 上 源 于 评分 者 内 在 认 知 加 工 的 不 同 , 认 知 加 工 的 不 同 可 能 使 得 评 
分 者 在 不 同 测验 形式 下 的 评分 结果 有 所 差异 , 从 而 导致 TME 的 产生 .也 即 , 评分 者 效应 (rater 
effect; 韩 建 涛 等 , 2019) 也 可 能 是 TME 的 来 源 之 一 。 测 验 中 的 客观 题 由 于 评分 标准 明确 、 
客观 ， 所 以 其 评分 结果 不 易 被 评分 者 效应 影响 ; 而 对 于 主观 题 ， 其 评分 结果 则 容易 受到 评分 
者 主观 因素 的 影响 ， 从 而 导致 其 在 PBT 和 CBT 中 的 评分 结果 存在 差异 。 具 体 来 说 ， 评 分 者 
在 评定 不 同 测验 形式 下 的 被 试 作答 时 ， 主 要 受到 被 试 作 答 呈 现 方式 的 影响 〈Hunsu, 2015), 


其 中 手写 版 Chandwritten) 和 打字 版 (typed or word-processed) 的 差异 是 研究 关注 的 重点 。 


Arnold ÆA (1990) 发 现 ,评分 者 倾向 于 对 手写 版 作答 采用 更 宽松 的 标准 ， 而 对 打字 版 更 苛 
刻 .这 可 能 是 因为 手写 作答 在 一 定 程度 上 具有 更 长 的 感知 视觉 效果 , 并 保留 被 试 的 修改 痕迹 ， 


而 且 有 评分 者 认为 手写 版 比 打字 版 更 有 “力量 ”(Powers et al., 1994; Russell & Tao, 2004a). 
另外 , 为 探讨 不 同 测验 形式 给 评分 者 带 来 的 感知 长 度 差异 对 测验 结果 的 影响 , 研究 者 对 比 单 
倍 行距 与 双 倍 行距 的 作文 评分 ,发 现 长 度 的 变化 并 没有 消除 CBT 与 PBT 的 得 分 差异 (Russell 


& Tao, 2004b )。 

需要 注意 的 是 ， 来自 评 分 者 的 影响 通常 与 题 型 相互 交织 ,评分 者 对 CBT 与 PBT 的 评分 
差异 大 多 出 现 于 建构 题 上 。 为 区 分 两 者 的 影响 , 研究 者 将 手写 版 的 作答 输入 计算 机 ， 让 评分 
者 对 混合 之 后 的 打字 版 作答 进行 评分 ， 发 现 被 试 在 CBT 上 的 得 分 更 高 (Jin & Yan, 2017; 
Russell & Haney, 1997)。 但 也 有 对 学 术 英 语 测试 的 研究 发 现 ， 控 制 评 分 者 的 严格 程度 和 信 度 
之 后 , 被 试 在 CBT 与 PBT 下 的 整体 测验 得 分 差异 较 小 ， 评 分 者 仅 在 词汇 量 测试 题 中 呈现 出 
对 手写 版 的 偏好 (Chan et al., 2018)。 

K 1 对 TME 的 来 源 进 行 总 结 ， 并 对 TME 的 产生 进行 说 明 。 


表 1 TME 的 来 源 和 对 TME 产生 的 说 明 


PR TME 的 来 源 TME 产生 的 说 明 
测验 层 
A) 作答 设备 PBT 使 用 纸 笔 ，CBT 使 用 屏幕 、 鼠 标 和 键盘 
= 是 否 允 许 检查 并 修改 答案 ”PBT 允许 检查 修改 答案 ，CBT 往往 不 允许 
= 测验 过 程 有 无 监督 PBT 往往 有 监督 ，CBT 可 能 无 监督 
pi 测验 计时 与 选 题 方式 CBT 的 计时 和 选 题 方式 更 灵活 ，PBT 的 更 固定 
= 题目 层面 
二 题目 呈现 方式 CBT 的 多 样 形式 导致 很 难 与 PBT 有 完全 相同 的 
O 题目 呈现 方式 
题目 类 型 题 型 交互 方式 的 复杂 程度 影响 CBT 上 的 表现 
被 试 层 面 
人 口 学 变量 年 龄 和 性 别 等 通过 影响 其 他 变量 间接 导致 TME 
计算 机 的 熟练 程度 计算 机 熟练 程度 可 能 影响 CBT 上 的 成 绩 
作答 动机 PBT 和 CBT 上 的 作答 动机 不 同 导致 得 分 差异 
评分 者 层面 
评分 者 效应 主观 题 易 受 评分 者 效应 的 影响 


在 实践 中 , 研究 者 往往 需要 在 排除 无 关 变 量 的 影响 后 , 再 探 究 测 验 形式 对 测验 结果 的 影 
响 。 因 此 ,对 TME 的 来 源 进行 梳理 有 助 于 研究 者 在 实验 设计 阶段 对 无 关 变 量 进行 严格 控制 ， 
以 减少 无 关 变 量 的 影响 。 比 如 , 在 测验 层面 保证 被 试 都 能 检查 并 修改 答案 ， 且 作答 过 程 都 在 
有 人 监督 的 情况 下 进行 ; 在 题目 层面 保证 所 有 题目 在 PBT 和 CBT 上 有 相同 的 呈现 效果 ; 在 


被 试 层面 保证 在 两 种 测验 形式 上 作答 的 被 试 的 年 龄 和 性 别 等 方面 一 致 。 


3 TME 的 检测 


3.1TME 的 实验 设计 


TME 研究 一 般 采 用 两 类 实验 设计 控制 被 试 特征 : 组 间 设 计 和 组 内 设计 (Buerger et al., 


2016)。 在 TME 的 研究 背景 下 ， 组 间 设 计 中 每 名 被 试 只 接受 PBT 或 者 CBT， 而 在 组 内 设计 


中 每 名 被 试 先后 接受 这 两 种 测验 形式 。TME 组 间 设 计 和 组 内 设计 如 图 1 tas GEN 名 被 试 


和 7 道 题 )。 根 据 被 试 是 否 能 够 自由 选择 测验 形式 , 组 间 设 计 又 被 分 为 两 类 : (1) 自由 选择 。 


即 被 试 可 以 自由 选择 测验 形式 (Puhan etal., 2007); (2) 随机 分 配 。 即 研究 者 将 被 试 随 机 分 


配给 某 种 测验 形式 (Gu etal., 2021; Schwarz etal.,2003 )。 根 据 被 试 作 答 顺 序 是 否 固定 ， 组 内 
设计 也 可 以 被 分 为 两 类 : (1) 固定 顺序 。 即 所 有 被 试 接受 两 种 形式 测验 的 顺序 固定 且 一 致 
(Jeong, 2012); (2 ) 平 衡 顺序 。 即 先 将 被 试 随机 分 成 两 组 , 一 组 先 接受 测验 形式 A( 如 PBT)， 
一 段 时 间 后 再 接受 测验 形式 B (如 CBT)， 另 一 组 则 与 之 相反 ， 即 所 谓 的 “AB-BA iit” 


(Bodmann & Robinson, 2004; Kim et al., 2018; Seifert & Paleczek, 2022). 


了 道 题 了 道 题 7 道 题 Dew 
人 人 人 
| y y 
NI2 
个 一 PBT 
人 N 
个 PBT CBT 
人 
N/2 
个 一 CBT 
人 
图 1 TME 组 间 设 计 〈 左 ) 和 组 内 设计 ( 右 ) 示意 图 


组 间 设 计 和 组 内 设计 各 有 其 适用 范围 。 与 前 者 比 , 后 者 能 有 效 避 免 由 组 间 个 体 差 异 带 来 
的 无 关 变 量 干扰 , 但 也 容易 受到 疲劳 效应 和 练习 效应 的 影响 , 因此 适用 于 样本 量 和 题 量 都 较 


少 的 情况 ， 更 适用 于 练习 效应 较 小 的 人 格 测验 。 而 在 组 间 设 计 中 ,虽然 组 间 个 体 差异 难以 避 
免 、 容 易 引 入 无 关 变 量 ， 但 是 由 于 每 名 被 试 只 接受 一 种 测验 形式 ， 实 施 起 来 更 方便 、 快 捷 ， 
因而 适用 于 样本 量 和 题 量 都 较 多 的 情境 ， 更 适用 于 能 力 测验 。 


表 2TME 研究 中 的 BIB 设计 


PBT CBT 
题 本 A 题 本 B 题 本 A 题 本 B 
组 1 Test 1 Test 2 
组 2 Test 1 Test 2 
组 3 Test 2 Test 1 


组 4 Test2 Test 1 


为 改进 这 两 种 设计 的 不 足 , 研究 者 将 它们 结合 形成 平衡 不 完全 区 组 (Balanced Incomplete 
Block, BIB; Brunfaut et al., 2018) 设计 ， 如 表 2 所 示 。 在 BIB 设计 中 ， 原 测验 被 分 成 多 个 平 
行 题 本 ， 相 应 地 被 试 也 被 随机 分 成 多 个 组 ， 这 多 个 被 试 组 理论 上 可 被 看 作 是 相互 平行 的 。 表 
2 中 的 “Test 1” 和 “Test 2” 代 表 被 试 的 作答 顺序 。 每 组 被 试 作 答 两 个 题 本 ， 并 在 题 本 序号 
和 作答 顺序 上 进行 平衡 ， 从 而 减轻 被 试 的 疲劳 效应 。 由 于 题 本 A 和 B 理论 上 平行 ， 比 较 每 
组 中 两 个 题 本 间 的 作答 就 可 以 估计 TME。 通 过 设计 组 1 和 组 4 以 及 组 2 和 组 3 可 以 控制 顺 
序 效 应 、 疲 劳 效应 和 学 习 效应 。BIB 设计 结合 两 种 设计 的 优点 ， 因 而 在 样本 量 大 、 题 目 较 多 
的 测评 项 目 〈 如 PISA) 中 已 经 得 到 较为 成 熟 的 运用 〈OECD, 2014). 
= 通过 实验 设计 ， 可 以 有 效 控 制 组 间 被 试 特 征 的 影响 。 但 是 即使 控制 组 间 差 异 ，BIB 设计 
Ka 依旧 无 法 完全 避免 组 内 个 体 差异 〈 如 年 龄 、 计 算 机 的 使 用 和 作答 动机 ) 的 影响 ， 此 时 可 以 在 
测验 过 程 中 估计 由 个 体 特征 造成 的 TME。 接 下 来 介绍 TME 的 检测 方法 。 


ES 


= 3.2 TME 的 检测 方法 

Q 对 TME 进行 检测 就 是 对 被 试 在 PBT 和 CBT 上 的 作答 表现 进行 比较 ， 作 答 表 现 的 比较 
可 以 分 为 两 个 层面 :观测 变量 层面 和 潜 变量 层面 。 在 观测 变量 层面 ， 一 般 采 用 方差 分 析 
ft (Analysis of Variance, ANOVA) 法 进行 比较 。 在 潜 变量 层面 ,一般 通过 检验 测量 不 变性 或 参 
二 数 不 变 性 来 检测 TME. 在 结构 方程 模型 框架 下 , 测量 不 变性 是 指 在 测量 被 试 的 目标 特质 时 ， 
© 观测 变量 和 潜在 特质 间 以 及 潜在 特质 之 间 的 关系 在 待 比较 的 各 组 之 间或 在 不 同情 境 下 等 所 
(和 白 新 文 ， 陈 妆 文 ,2004); 而 在 项 目 反应 理论 (item Response Theory, IRT) 框架 下 ， 参 数 不 
变性 体现 在 题目 参数 和 能 力 参数 的 不 变性 上 受 旭 刚 等 ,2018)。 目 前 ， 潜 变量 层面 的 TME 


检测 方法 主要 包括 多 组 验证 性 因子 分 析 (Multigroup Confirmatory Factor Analysis, MCFA ) 法 、 


题目 功能 差异 (Differential Item Functioning, DIF) 法 和 模式 效应 模型 (Mode Effect Model, 


MEM) 法 。 下 面 对 这 四 种 方法 进行 述评 。 


3.2.1 ANOVA 法 
ANOVA 法 首先 计算 两 种 测验 形式 下 的 作答 指标 〈 包 括 测 验 层面 的 总 分 以 及 题目 层面 的 
平均 分 、 正 确 率 和 空缺 挛 等 )， 然 后 根据 实验 设计 是 组 内 或 组 间 设 计 ， 采 用 被 试 内 或 被 试 间 


的 ANOVA 对 这 些 作答 指标 进行 比较 。 如 果 这 些 指 标 间 存在 显著 差异 ， 则 说 明 存 在 TME 并 


H TME 会 对 测验 结果 产生 影响 (Bodmann & Robinson, 2004; Goldberg et al., 2003; Khoshsima 


et al., 2017). ANOVA 法 可 通过 SPSS 或 R 中 的 TAM 包 (Robitzsch et al., 2022) 实现 。 


3.2.2 MCFA 法 


MCFA 法 采 


a 


多 组 比较 的 思想 ， 对 两 种 测验 形式 下 的 结果 进行 测量 不 变性 检验 (Kim & 
Huynh, 2008)。 测 量 不 变性 检验 是 通过 比较 一 系列 符 套 模型 来 实现 ， 有 具体 表现 在 依次 对 以 下 
不 变性 进行 检验 : (1) 结构 不 变性 〈configural invariance) 检验 。 即 检验 不 同 组 之 间 的 因子 
结构 ( 即 观测 变量 和 潜 变 量 间 的 关系 〉 是 否 相 同 ; (2) 弱 不 变性 〈weak invariance) 检验 。 
若 结 构 不 变性 得 到 满足 , 则 进一步 检验 不 同 组 之 间 的 因子 载荷 是 否 相 等 ; (3 ) 强 不 变性 (strong 
invariance) 检验 。 若 弱 不 变性 得 到 满足 ， 则 进一步 检验 不 同 组 之 间 的 截 距 〈 潜 变量 预测 观测 
变量 时 的 截 距 ) 是 否 相同 ; (4) 严格 不 变性 (strict invariance) 检验 。 知 强 不 变性 得 到 满足 ， 
则 检验 不 同 组 之 间 的 残 差 方差 是 否 相 同 。 这 4 种 检验 对 应 的 测量 不 变性 水 平 具有 层级 嵌 套 
关系 ， 只 有 低 一 级 的 不 变性 得 到 证 实 后 ， 进 行 高 一 级 的 不 变性 检验 才 有 意义 ( 蔡 华 俭 等 ， 
2008)。 如 果 测 验 在 某 一 级 水 平 的 测量 不 变性 上 出 现 违 反 ， 则 说 明 该 测验 在 对 应 水 平 上 存在 
TME， 通 过 这 种 方式 可 以 对 测验 层面 的 TME 进行 检验 。 

为 进一步 寻找 违反 测量 不 变性 的 成 因 , 可 以 根据 输出 结果 确定 当前 测量 不 变性 水 平 下 对 
模型 拟 合 违反 较 大 的 题目 。 在 放松 该 题目 上 的 检验 限制 后 ， 若 模型 拟 合 显著 变 好 ， 则 说 明 该 
题目 的 存在 会 对 测量 不 变性 产生 影响 ， 可 认为 存在 TME。 这 样 依次 对 所 有 题目 进行 检测 ， 
即 可 找 出 所 有 具有 TME 的 题目 。 此 时 ， 测 验 满足 部 分 (partial) 弱 不 变性 、 部 分 强 不 变性 或 
部 分 严格 不 变性 。 

已 有 研究 几乎 都 得 到 结构 不 变性 的 结果 , 这 可 能 是 因为 一 个 用 于 施 测 的 成 熟 测 验 往往 具 
有 较 好 的 信 效 度 , 所 以 在 测验 形式 发 生变 化 后 因子 结构 并 没有 发 生变 化 。 大 多 数 测验 具有 完 
全 或 部 分 弱 不 变性 , 还 有 一 些 测验 具有 完全 或 部 分 强 不 变性 , 但 是 极 少 有 测验 能 够 达到 严格 
不 变性 〈 比 如 , Hox et al., 2015)。 一 般 来 说 ， 只 要 达到 弱 不 变性 或 部 分 强 不 变性 ， 就 说 明 不 


同 测验 形式 下 的 结果 可 比 。MCFA 法 可 通过 R 中 的 lavaan 包 (Rosseel, 2012) 实现 。 


3.2.3 DIF 法 

TME 和 DIF 都 反映 “由 于 某 种 因素 的 影响 ， 导 致 能 力 相 同 的 被 试 在 同一 题目 上 具有 不 
同 的 正确 作答 概率 ”， 在 DIP 中 这 种 因素 是 指 被 试 来 自 不 同 群体 ， 而 在 TME 中 这 种 因素 是 
指 不 同 的 测验 形式 。 鉴 于 两 者 的 相似 性 ， 不 少 研究 者 将 检测 DIF 的 方法 用 于 对 TME 的 检测 


(Chan et al., 2004; Keng et al., 2008; Puhan et al., 2007; Schwarz et al., 2003 )， 此 时 作答 CBT 


的 被 试 组 可 看 作 是 目标 组 (focus group), 作答 PBT 的 被 试 组 可 看 作 是 参照 组 (reference group )。 


常见 的 DIF 检测 方法 主要 有 两 类 : 一 类 是 基于 IRT 的 方法 〈 即 将 潜在 特质 作为 匹配 变 


(Differential Functioning of Items and Test, DFIT) 以 及 同时 题目 


量 )， 包 括 IRT 似 然 比 检验 法 CIRT Likelihood Ratio, IRT-LR)、 测 验 与 题目 


功能 差异 法 


偏差 检验 法 (Simultaneous 


Item Bias Test, SIBTEST; Shealy & Stout, 1993) 等 ， 另 一 类 是 非 IRT 的 方法 〈 即 直接 将 测验 


总 分 作为 匹配 变量 )， 包括 Mantel-Haenszel 法 、 标 准 化 法 (Standardization, STND) 和 逻辑 斯 


dk 


bal 


DFIT 法 都 已 被 用 于 检测 TME (Claudia et al., 1999; Puhan et al., 2007; Terluin et al., 2018). 1E 


7 SEIFIVAYA (Logistic Regression, LRDIF) “. HP, Mantel-Haenszel, SIBTEST. IRT-LR 和 


得 注意 的 是 ， 只 有 DFIT 法 可 以 同时 对 测验 和 题目 层面 的 DIF 进行 检测 ， 其 他 方法 只 能 对 单 


个 题目 的 DIF 进行 检测 (Raju et al, 1995). 


以 SIBTEST 法 为 例 ， 简 要 介绍 检测 TME 的 步骤 : (1) 


将 所 有 题目 分 为 匹配 子 测验 和 


f 


测 子 测验 。 匹 配子 测验 由 不 存在 TME 的 题目 组 成 ， 因 此 可 将 被 试 在 匹配 子 测验 上 的 分 数 作 
为 其 能 力 估计 值 ;(2) 对 目标 组 和 参照 组 在 匹配 子 测验 和 待 测 子 测验 中 的 作答 结果 进行 评价 ， 


并 基于 匹配 子 测验 上 的 分 数 将 能 力 相 同 但 组 别 不 同 的 被 试 进行 匹配 。SIBTEST 假定 在 


匹配 


子 测 验 中 分 数 相同 的 被 试 具有 相同 能 力 , 所 以 组 别 不 同 的 匹配 被 试 在 待 测 子 测验 上 的 分 数 差 
异 就 是 TME 的 值 ; (3) 对 TME 的 值 进行 显著 性 检验 ， 从 而 确定 题目 是 否 有 TME REZ, 


2014; 汤 楚 , 2016). DIF 法 可 通过 了 中 的 mirt ©, (Chalmers, 2012) 实现 。 


3.2.4 MEM 法 


von Davier 等 人 (2019) 提出 可 以 通过 在 两 参数 逻辑 斯 带 克 模型 (Two-Parameter Logistic 
Model, 2PLM) 中 加 入 量化 的 TME 参数 从 而 形成 MEM, 然后 在 估计 题目 参数 和 能 力 参 数 的 
同时 也 对 TME 参数 进行 估计 。MEM 包含 三 个 子 模型 ， 每 个 子 模型 都 有 不 同 的 模型 假设 。 

MEM 中 的 模型 1 又 被 称 为 一 般 MEM (general MEM)。 它 假设 TME 只 与 测验 形式 有 


关 ， 在 测验 形式 发 生变 化 后 ， 所 有 题目 的 难度 都 发 生 相同 的 改变 。 模 型 1 定义 TME 参数 为 


6m《m 代 表 测 验 形式 )， 公 式 如 下 : 


P(x = 10, Qi, Bi, Om) = 


exp(a;0 — Bi — lesn6m) 
1+ exp(a;0 一 太一 lsn6m) 
其 中 a; 和 pi; 分 别 为 第 题 的 斜率 参数 和 截 距 参 数 , 9 为 能 力 参 数 , 1 表示 一 种 测验 形式 的 测验 的 


(1) 


题目 数量 。1(isn 是 指示 函数 ， 当 i < [时 ，1(isn 为 0, 代表 原木 的 测验 形式 (如 PBT); $i' = 


it], BI <i < 21 时 ，1gsn 为 1， 代表 新 的 测验 形式 Ch 


O CBT)。 此 时 ， 第 i 题 和 第 i 题 


三 | 
FE 


同一 道 题 目 ， 但 测验 形式 不 同 。 为 使 作答 PBT 和 CBT 的 被 试 在 同一 题目 上 的 正确 作答 概率 


一 致 ， 模 型 假设 wi; = ay FB, = By + Ome 45m = 0 时 ， 说 明 测验 在 PBT 和 CBT 间 不 存在 显 
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著 差异 ， 即 测验 无 TME; “46, > 0 时 ， 则 有 Bi; > 8， 说 明 测验 在 PBT 上 的 难度 大 于 CBT; 
bm < 0 时 ， 说 明 测 验 在 PBT 上 的 难度 小 于 CBT.. 

MEM 中 的 模型 2 假设 测验 形式 和 题目 之 间 存 在 交互 作用 ,也 即 在 测验 形式 发 生变 化 后 ， 
测验 中 有 的 题目 可 能 会 变 得 更 难 ， 有 的 题目 会 变 得 更 简单 。 因 此 ， 模 型 2 也 被 称 为 题目 特异 


性 的 MEM (item-specific MEM), ArU F: 


LIK 


SS 


exp(@i0 — Bi — 1gsndmi) 
1 + exp(a;0 — bi — lsnomi) 
与 模型 1 类 似 ， 模 型 2 中 的 前 7 道 题 对 应 PBT、 后 7 道 题 对 应 CBT。 两 种 测验 形式 上 的 


题目 一 一 对 应 ， 因 此 也 有 wi = a, FB, = By + Omir Sm AULA TME 参数 。 当 6 = 0 时 ， 
说 明 第 ; 题 不 存在 TME; 当 6 > 0 时 , 说 明 在 第 题 上 PBT 的 难度 大 于 CBT; 46,n; < 0 时 ， 
说 明 在 第 ; 题 上 PBT 的 难度 小 于 CBT. 

MEM 中 的 模型 3 假设 测验 形式 和 被 试 之 间 存 在 交互 作用 ， 即 在 测验 形式 转化 后 ， 对 于 
有 的 被 试 来 说 题目 变 得 更 难 , 对 于 有 的 被 试 来 说 题目 变 得 更 简单 。 模 型 3 也 被 称 为 个 体 特异 


性 的 MEM (person-specific MEM)， 公 式 如 下 : 


P(x 一 1/6, æi, Pis mi) = (2) 


exp(a;0 — bi — lsnamid) 
1+ exp(a;0 — pi - Lpisjdmid)’ 
其 中 gj 是 模式 斜率 , 它 具 有 题目 特异 性 , 反映 个 体 特征 对 TME 的 影响 在 不 同 题 目 上 不 同 。 


9 代表 被 斌 的 额外 能 力 ( 如 使 用 计算 机 的 能 力 )， 它 与 TME A, 但 与 被 试 的 与 测验 目的 有 
关 的 能 力 不 相 关 , 即 cov(9,8) = 0。 如 果 ami = 0, 说 明 不 存在 TME; Wl anit BASF 0， 
则 存在 TME。 模 型 3 与 前 两 个 模型 的 最 大 区 别 在 于 : 模型 从 单 维 IRT 模型 变 成 多 维 IRT 模 
型 ， 因 此 在 模型 识别 和 参数 估计 上 都 更 复杂 。 

MEM 法 的 以 上 三 个 子 模型 分 别 假设 三 种 不 同 的 情况 。 在 使 
通常 的 做 法 是 使 用 AIC 和 BIC 等 模型 拟 合 指标 比较 三 个 模型 和 数据 的 拟 合 程度 ， 拟 合 越 好 
说 明 数 据 更 接近 对 应 模型 的 假设 ， 从 而 可 以 探究 TME 是 具有 一 般 性 、 题 目 特异 性 还 是 个 体 
特异 性 (von Davier et al., 2019)。 模 型 拟 合 的 同时 也 对 题目 参数 、 能 力 参 数 和 TME 参数 进 
行 估计 ， 进 而 找 出 具有 TME 的 题目 并 对 其 进行 调整 。 另 外 ， 模 型 1 和 2 RARER, 
型 3 与 模型 1 和 2 没有 嵌 套 关系 。 如 果 简 单 模 型 和 复杂 模型 的 拟 合 不 存在 显著 差异 , 则 选择 
性 价 比 更 高 的 简单 模型 。MEM 法 可 通过 mdltm 软件 (von Davier, 2005) 实现 。 


MEM 法 的 三 个 子 模型 还 可 以 从 TME 来 源 的 角度 进行 理解 。 模 型 1 假设 TME 只 与 测验 


P(x = 110, ap Bi, Ami, 9) = (3) 


D 


用 这 种 方法 检测 TME 时 ， 


1 AR O) 中 车 没有 1¢z>ny6m 部 分 ， 即 对 应 2PLM. Æ 2PLM 中 ，pBi 与 题目 难度 b; 成 正比 关系 ， 即 pi; = 
bi Xai EPa; = 1.702 x a; (qi 是 题目 区 分 度 )。 
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检查 并 修改 答案 等 。 


多 种 题 型 的 考试 ， 


模型 3 假设 TME 具有 个 体 特异 和 


PEREX, WIJE TME 的 来 源 只 包括 测验 层面 的 差异 ， 如 计算 机 的 硬件 设施 和 是 否 允 许 
模型 2 假设 TME 具有 题目 特异 性 ， 说 明 此 时 TME 会 受到 题目 层面 差 


异 的 影响 ,如 题目 类 型 和 题目 的 呈现 方式 等 。 这 种 情况 在 能 力 测验 


中 较为 常见 ,特别 是 包含 


， 不 同 题目 受到 测验 形式 的 影响 也 不 同 ， 从 而 导致 题目 特异 性 的 TME. 
E， 说 明 此 时 TME 会 受到 被 试 层面 差异 的 影响 ， 如 年 龄 、 
性 别 、 计 算 机 的 熟练 程度 和 作答 动机 等 。 这 种 情况 可 能 出 现在 个 体 差异 较 大 的 时 候 ， 即 使 通 


过 实验 设计 进行 控制 ， 也 没 法 完全 避免 个 体 差异 的 影响 ， 从 而 导致 个 体 特异 性 的 TME。 


3.2.5 TME 检测 方法 的 比较 


表 3 对 上 述 四 种 TME 检测 方法 的 优 缺 点 、 适 


优点 
方便 快捷 ， 适 用 
范围 广 
MCFA 可 探究 潜 变 量 和 


ANOVA 


潜 变 量 间 的 关系 
检验 力 高 ， 包 含 
方法 多 样 ， 可 灵 
活 选择 

检验 力 高 ， 可 
一 定 程 度 上 了 
TME 的 来 源 


DIF 


MEM 


z 


能 出 现 模型 识别 等 
问题 


表 3 四 种 TME 检测 方法 的 总 结 
缺点 适用 范围 
检验 力 较 低 对 TME 进行 
初步 检测 
对 题目 层面 的 TME 人格 和 社会 心 
检测 过 程 较 为 繁琐 ” 理 领 域内 的 测 
验 
各 种 DIE 方法 的 自 
身 不 足 
教育 测量 领域 
模型 较为 复杂 ， 可 “内 的 成 就 测验 


j 范 围 和 实现 方法 进行 了 总 结 。 


实现 方式 
SPSS 或 TAM 包 


lavaan 包 


mirt 包 


mdltm 软件 


ANOVA 法 通过 “计算 PBT 和 CBT 上 的 作答 指标 , 再 比较 两 者 间 的 差异 ”来 检测 TME， 


优点 在 于 方便 快捷 、 


低 ， 而 且 只 能 对 观测 指标 进行 比较 。MCFA 法 通过 验 订 


计算 简单 ， 适 合 对 测验 层面 的 TME 进行 初步 检测 ， 不 足 在 于 检验 力 较 
测量 不 变性 来 对 TME 进行 检测 。 与 


ANOVA 法 类 似 ，MCFA 法 更 适合 对 测验 层面 的 TME 进行 检测 ， 可 以 探究 观测 变量 与 潜在 


特质 间 以 及 潜在 特质 间 的 关系 ;不 足 在 于 对 题 


目 层 面 TME 进行 检测 的 过 程 繁琐 、 不 易 操 作 。 


DIF 法 利用 DIF 和 TME 在 概念 和 检测 方法 上 的 共通 性 ， 采 用 DIF 检测 方法 对 TME 进 


行 检测 。DIF 法 的 优点 体现 在 两 方面 : 


一 是 能 对 测验 中 具有 TME 的 题目 


进行 准确 识别 ， 二 


是 包含 的 方法 非常 多 样 ， 在 实践 中 可 以 灵活 选择 。MEM 法 通过 建立 包含 TME 参数 的 IRT 


> 


RA, ARES TME 的 值 进行 估计 。 与 前 三 种 方法 相 比 ，MEM 7 


能 对 TME 的 大 小 进行 直 


接 估 计 ; 二 是 能 在 一 定 程度 上 探究 TME 上 


具有 两 方面 的 优点 : 一 是 
JRW, 从 而 更 好 地 对 TME 


进行 解释 和 控制 ;缺点 是 模型 较为 复杂 《特别 是 模型 3)， 可 


等 方面 的 挑战 。 


4 测验 模式 效应 的 研究 结果 


在 过 去 30 多 年 里 , 已 经 有 超过 300 项 和 


能 会 面临 模型 识别 和 参数 估计 


究 对 PBT 和 CBT 的 测验 结果 (包括 成 就 测验 、 


人 格 与 态度 测验 和 职业 兴趣 测验 等 领域 的 结果 〉 进行 比较 (Duchnicky & Kolers, 1983; Kulik 


et al., 1980)， 但 并 没有 得 到 一 致 的 结论 。 很 多 研究 者 发 现 ， 同 一 测验 在 CBT 上 的 难度 要 普 


遍 高 于 PBT， 导 致 被 试 在 PBT 上 的 表现 显著 好 于 在 CBT 上 的 表现 (比如 ，Backes & Cowan, 


2019; Beatty et al., 2022; Lee et al., 1986; Jeong, 2012 )。 然 而 也 有 一 些 研究 得 出 相反 的 结论 ， 


即 被 试 在 CBT 上 的 表现 要 好 于 在 PBT 


上 的 表现 〈 比 如 ，Brunfaut et al.,2018; Russell & Plati, 


2002)。 还 有 不 少 研究 发 现 , 被 试 在 不 同 测验 形式 上 的 作 管 结果 没有 显著 差异 (Blumenthal & 


Blumenthal, 2020; Hamhuis et al., 2020; Khoshsima &Toroujeni, 2017; Paleczek et al., 2021; 


Porion et al., 2016; Prisacari & Danielson, 2017a, 2017b). 
出 现 这 样 的 结果 可 能 与 研究 发 表 的 年 代 有 关 。 随 着 研究 发 表 年 代 的 递 进 ， 被 试 在 PBT 
21 世纪 之 前 ,计算 机 还 没有 得 到 普及 ， 相 应 地 人 们 对 


和 CBT 上 的 作答 表现 也 发 生变 化 。 在 


出 现 更 多 在 CBT 上 得 分 更 高 的 情况 。 


a> F 


计算 机 的 使 用 不 太 熟 练 ， 因 此 会 出 现 PBT 得 分 显著 高 于 CBT 的 结果 。 随 着 计算 机 的 逐渐 普 


及 ， 人 们 使 用 计算 机 的 能 力也 得 到 提高 


和 加 上 对 计算 机 有 着 较 强 的 兴趣 和 作答 动机 ， 因 此 


对 于 没有 检测 出 TME 的 研究 , 则 可 能 有 以 下 几 点 原因 :1) 部 分 测验 题目 (如 多 选 题 ) 
的 稳定 性 较 好 , Dar E TME; (2) 随 着 题 型 越 来 越 多 样 化 ， 可 能 会 出 现 “ 在 同一 测验 中 ， 


zk 


来 源 控制 较 好 ”的 前 提 下 ,测验 层面 不 存在 较 大 的 TME. AA 


分 题目 对 PBT BAA, 而 另 一 些 题目 对 CBT 更 有 利 ” 的 情况 。 如 果 只 对 测验 层面 的 TME 
进行 检测 , 则 可 能 出 现 效应 上 的 抵消 ; (3) 在 “测验 本 身 结 


构 较 好 、 实验 设计 较 完善 且 对 TME 


和 MCFA 法 ， 则 容易 出 现 TME 检测 不 显著 的 情况 。 


因此 ， 很 多 研究 在 对 测验 层面 的 TME 进行 检测 后 ， 还 会 对 题目 层面 的 TME 进行 检测 


究 者 采用 检验 力 较 低 的 ANOVA 


(Keng et al., 2008; Puhan et al., 2007; OECD, 2017)。 通 过 综合 测验 和 题目 层面 的 检测 结果 ， 


可 以 为 测验 在 PBT 和 CBT EHE HH 
为 题目 的 修订 提出 建议 。 


5 讨论 与 展望 


E 提 供 依据 ， 也 可 以 更 旨 


致 地 探究 TME 的 来 源 ， 从 而 


目前 随 着 计算 机 和 网 络 的 广泛 运用 ，TME 已 经 成 为 大 型 测验 电子 化 进程 中 不 容 忽视 的 
问题 。PISA、NAEP 和 TIMSS 等 大 规模 测评 项 目 都 在 经 历 着 从 PBT 到 CBT 的 变化 。 在 进 
行 测验 形式 的 转变 之 前 ， 采 用 严密 的 实验 设计 和 精确 的 检测 方法 对 测验 中 可 能 存在 的 TME 
进行 检测 ,是 保证 PBT 和 CBT 上 作答 结果 具有 可 比 性 的 重要 途径 ,也 是 对 测验 公平 的 保障 。 
通过 前 面 的 梳理 ， 可 以 看 到 尽管 TME 的 研究 已 经 较为 成 熟 ， 但 是 也 还 存在 一 些 问题 : 
首先 ，TME 的 来 源 比较 复杂 ， 使 得 影响 TME 的 因素 繁多 。 而 且 对 于 同一 因素 ， 还 可 能 会 在 
不 同人 群 中 出 现 巨 大 差异 ,比如 CBT 中 的 交互 方式 ,年轻 人 会 适应 键盘 和 鼠标 的 输入 方式 ， 
而 中 老年 人 可 能 会 非常 不 适应 。 这 使 得 研究 者 几乎 无 法 预测 和 控制 影响 因素 , 不 利于 对 TME 
进行 深入 的 分 析 与 解释 。 其 次 ， 缺 少 对 TME 检测 方法 的 系统 比较 。 尽 管 四 种 TME 检测 方 
法 各 有 优势 , 有 时 也 可 以 同时 使 用 以 达到 更 好 的 效果 , 但 是 还 没有 研究 对 它们 的 检测 效果 i 
行 全 面 比较 。 最 后 ， 不 同 TME 研究 中 的 结果 难以 进行 比较 。 如 前 所 述 ，TME 的 研究 结果 受 
O) TME 的 来 源 、 实 验 设 计 和 检测 方法 等 多 方面 的 影响 ， 因 此 有 研究 者 使 用 元 分 析 方法 对 TME 
研究 的 影响 因素 进行 探究 ， 然 而 结果 不 尽 相 同 CWang et al.,2007,2008)。 这 可 能 是 因为 元 分 
WA TE SER SEF ZF AL, 即 很 多 研究 者 认为 方法 不 同 的 研究 不 能 进行 直接 比较 。 
Se, TME 今后 的 研究 方向 包括 但 不 限于 以 下 几 个 方面 : 


ql 5.1 提升 MEM 方法 的 解释 性 与 适用 性 
第 三 部 分 提 到 ， 可 以 从 TME 来 源 的 角度 理解 MEM。 但 是 ，MEM 只 能 在 一 定 程度 上 帮 
© 助 研究 者 锁定 TME 的 来 源 范围 ， 无 法 对 TME 的 来 源 做 出 解释 。 因此， 可 以 借助 “IRT 模型 
= 能 够 增 减 参数 ”的 优势 ， 在 现 有 MEM 中 加 入 与 TME 来 源 相 关 的 因素 ， 从 而 直接 在 模型 中 
r 对 TME 进行 解释 。 比 如 ， 模 型 1 假设 TME 只 与 测验 形式 有 关 ，TME 的 来 源 可 能 是 作答 过 
程 有 无 监督 等 测验 层面 的 特征 。 为 进一步 对 这 些 因素 进行 解释 ， 可 以 建立 关于 TME 参数 和 
测验 层面 特征 的 回归 方程 ， 以 探究 不 同 特征 的 权重 以 及 不 同 特征 对 TME 产生 的 贡献 大 小 。 
在 模型 2 和 3 中 ， 也 可 以 建立 类 似 的 回归 方程 对 TME 的 来 源 进行 解释 。 
另外 ， 还 可 以 使 用 广义 模型 对 TME 进行 解释 。 陈 冠 宇和 陈 乎 (2019) 基于 广义 线性 混 
合 模型 和 非 线性 混合 模型 的 视角 全 面 探讨 解释 性 IRT 模型 (Explanatory IRT Model, EIRTM ). 
EIRTM 是 一 个 综合 性 的 解释 框架 ， 它 通过 在 IRT 模型 中 加 入 预测 变量 来 对 被 试 和 题目 间 的 
关系 进行 刻画 ， 进 而 解释 相关 变量 的 影响 。 有 具体 地 讲 ， 他 们 在 EIRTM 的 框架 下 ， 从 固定 效 
应 和 随机 效应 的 角度 对 TME 进行 解释 。 未 来 研究 也 可 以 在 EIRTM 这 一 更 加 灵活 、 更 加 广 


义 的 框架 下 对 混合 MEM 进行 进一步 界定 。 


再 者 ， 


已 有 的 MEM 方法 主要 基于 IRT 模型 CE 2PLM)。 而 认 知 诊断 测验 (Cognitive 


Diagnostic Testing, CDT) 由 于 能 够 反馈 学 生 对 特定 知识 属性 的 掌握 情况 、 能 够 剖析 心理 量 表 


的 潜在 结构 (de La Torre & Douglas, 2004)， 正 日 益 受 到 测量 研究 者 和 实践 者 的 青睐 。 未 来 


研究 可 进 


步 开 发 适用 于 CDT 的 MEM 方法 ， 比 如 借助 广义 多 策略 认 知 诊断 模型 (Ma & 


Guo, 2019) 分 析 CBT 与 PBT 下 的 被 试 作答 策 略 差异 ， 以 了 解 不 同 测验 形式 下 的 认 知 加 工 过 


程 变化 


o 


5.2 拓展 TME 研究 中 测验 形式 的 范围 
目前 大 多 数 TME 研究 都 聚焦 于 PBT 和 CBT 之 间 的 比较 ,然而 TME 还 可 能 出 现在 PBT 


和 其 他 测验 


ERZI, 包括 手机 测验 (mobile-based assessment) 和 电话 或 面对面 访谈 (phone 


or face-to-face interview) 等 测验 形式 〈Chan etal., 2004; Magnus et al.,2016) > Kim 和 Walker 


(2021) 还 研究 在 考试 中 心 参加 测验 和 使 用 远程 监考 在 家 参加 测验 之 间 的 TME。 随 着 测验 


ZORA AS Ot AC ie, 更 多 新 型 测验 形式 不 断 涌现 , 比如 基于 游戏 的 测验 (game-based assessment)、 


基于 虚拟 现实 (virtual reality〉 和 增强 现实 (augmented reality) 等 智能 穿戴 设备 的 测验 等 。 


对 这 些 形式 的 测验 进行 TME 研究 也 值得 未 来 研究 者 重视 。 


5.3 将 TME 研究 成 果 应 用 于 我 国 大 规模 教育 测评 项 目 

在 PISA 2014 年 的 现场 实验 研究 (field trial study) 中 ， 研 究 者 在 参与 测试 的 学 校 中 随机 
选取 学 生 参 加 PBT 和 CBT， 并 通过 多 种 方法 对 TME 进行 检测 ， 证 实数 学 、 阅 读 和 科学 等 
认 知 测验 在 PBT 和 CBT 上 的 结果 具有 可 比 性 ,从 而 为 测验 形式 的 转变 提供 理论 依据 (OECD， 
2016)。 随 后 在 2015 年 的 正式 测验 中 ， 全 球 参 与 测试 的 74 个 国家 地区) 中 的 58 个 国家 

(地 区 ) 全 面 使 用 CBT 进行 测验 “OECD, 2017). 

而 在 我 国 的 一 些 大 规模 教育 测评 项 目 中 ， 学 科 测验 仍 采 用 PBT 的 形式 。 这 主要 是 因为 

我 国 各 地 的 


条 件 使 用 


信息 化 水 平 程度 不 同 、 计算机 或 网 络 机 房 的 配备 程度 不 同 , 导致 少 部 分 地 区 尚 无 


CBT。 通 过 对 TME 进行 深入 研究 ， 可 在 一 定 程度 上 解决 这 一 问题 (1) 若 测验 中 


不 存在 显著 影响 测验 结果 的 TME, 则 说 明 该 测验 在 PBT 和 CBT 上 的 结果 具有 测量 等 价 性 ， 


即 可 以 在 不 同 地 区 使 用 不 同 测验 形式 ; (2) 若 测验 中 存在 具有 TME 的 题目 ， 则 可 以 对 其 进 
行 修订 和 改进 ， 增 强 它们 在 不 同情 境 中 的 稳定 性 。 


需要 注意 的 是 : 对 于 部 分 需要 人 工 评分 的 建构 题 , 仍 需 尽量 避免 评分 者 对 被 试 作答 呈现 


方式 感知 差异 所 带 来 的 影响 。 比 如 : CL) 考虑 将 手写 作答 输入 计算 机 ， 能 较 有 效 地 控制 来 自 


评分 者 


层面 


的 影响 ; (2〉 通 过 改良 对 评分 者 的 训练 规则 来 降低 手写 版 和 打字 版 的 评分 差异 
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(Powers etal., 1994)。 另 外 ， 随 着 自动 评分 技术 的 发 展 (Ramesh & Sanampudi, 2022 ; Zhang 
et al., 2020)， 测 验 或 将 迎 来 全 计算 机 化 模式 ， 届 时 评分 者 对 TME 的 影响 将 主要 集中 在 机 器 
分 的 算法 层面 。 
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录 

为 促进 TME 检测 方法 的 应 用 ， 以 下 呈现 能 实现 ANOVA. MCFEA 和 DIF 方法 的 RR 代码 
示例 。 由 于 实现 MEM 方法 的 mdltm 软件 不 是 开源 软件 且 研究 者 在 技术 报告 中 并 未 提供 详 
细 的 参数 估计 方法 , 因此 未 讨 插 在 本 例 中 。 接 下 来 以 组 间 设 计 为 例 , 给 出 检验 题目 层面 TME 


附 表 1 基于 R 软件 的 ANOVA、MCFA 和 DIF 方法 代码 示例 


BA 代码 示例 
ANOVA 目的 :比较 每 一 题 在 PBT 和 CBT 上 的 平均 分 
# 加 载 所 需 程序 包 ------- 
library(TAM) 
# 数据 准备 ---------------- 


# 1 = PBT, 0 = CBT 

#nperson 为 被 试 量 〈 即 图 1 中 N) 
#nitem 为 题目 数 《〈 即 图 1 AD 
#response_raw 包含 两 种 测验 形式 下 的 所 有 作答 ， 是 一 个 [nperson, nitem 的 矩阵 
# TMEbetween 用 于 储存 每 道 题 在 不 同 测验 形式 下 的 显著 性 结果 


# 创建 数据 框 ， 包 含 测验 模式 标签 “mode” 与 相应 的 作答 数据 
response_b <- data.frame(mode = c(rep(1, nperson/2), rep(0, nperson/2)), 
response_raw) 


# 数据 分 析 ---------------- 
# 创建 空 矩 阵 用 于 结果 存储 


TMEbetween <- matrix(data = NA, nrow = nitem, ncol = 1) 


for (j in 1:nitem){ 
# 对 每 一 题 比较 两 种 测验 模式 下 的 得 分 差异 (第 一 列 是 标签 ， 因此 从 j+1 开始 ) 
anova_item <- aov(response b|, j+1] ~ mode, data = response_b) 
# 将 结果 储存 于 矩阵 相应 位 置 
TMEbetween[, 1] <- summary(anova_item)[[1]]$*Pr(>F) [1] 
} 


mcr EG: 检验 PBT 与 CBT 下 结果 的 测量 不 变性 
# 加 载 所 需 程序 包 ------- 
library(lavaan) 
# 模型 检验 ----------- 
# 《本 示例 限定 所 有 题目 都 属于 同一 个 潜在 特质 
# 1. 检验 形态 等 价 〈 即 结构 不 变性 ) 
#2. 检验 载荷 等 价 ( 即 弱 不 变性 ) 
#3. 检验 截 距 等 价 〈 即 强 不 变性 ) 
#4. 依次 放松 每 道 题目 的 载荷 限制 ， 并 将 结果 储存 于 cfa item 
model <- 'trait =~ iteml + item2 + ... + itemN' # 建立 模型 
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fitl <- cfa(model, data = response_b, group = "mode") # 形态 等 价 
fit2 <- cfa(model, data = response_b, group = "mode", group.equal = "loadings") # 载 
荷 等 价 
fit3 <- cfa(model, data = response_b, group = "mode", 
group.equal = c("loadings", "intercepts")) # 截 距 等 价 
cfa item <- matrix(data = NA, nrow = nitem, ncol = 1) # OJE TIERE 
for (j in l:nitem){ 
# 依次 对 每 一 题 放 松 限 和 
fit4 <- cfa(model, data = response_b, group = "mode", 


= 


group.equal = c("loadings", "intercepts"), 
group.partial = paste("item", j, "~1", sep = "")) 
# 将 结果 储存 于 矩阵 相应 位 置 
cfa item[j, 1] <- anova(fit3, fit4)$*Pr(>Chisq) [2] 
} 


DIF (SIBTEST) ”目的 : 分 析 参 照 组 和 目标 组 的 结果 差异 


# 加 载 所 需 程序 包 ------- 
library(mirt) 
# DIF 检验 一 -------------- 
# beta_statistic 用 于 储存 检验 统计 量 的 结果 ， 并 且 : 
# BE (0,0.05) 表 示 不 存在 DIF 
# ”Be (0.05,0.1) 表 示 存 在 中 等 程度 DIF 
# 大 于 0.1 表示 存在 较 严 重 DIF (Puhan etal., 2007) 
# suspect 为 可 能 存在 TME 的 题目 集合 
# anchor 为 不 存在 TME 的 锚 题 集合 
#《〈 当 不 指定 锚 题 时 ， 可 令 除 待 检 题 目 外 的 所 有 题 作 为 锚 题 集 ) 
anchor <- c(1, 2, 3) # 设置 销 题 为 第 1、2 和 3 题 
suspect <- c(1:nitem)[-anchor] # 除去 锚 题 ， 即 得 到 可 能 存在 DIF 的 题目 集合 
beta_statistic <- matrix(data = NA, nrow = length(suspect), ncol = 1) # 创建 空 矩 阵 
for (j in 1:length(suspect)) { 

# 对 每 一 题 进行 DIF 检验 

dif item <- SIBTEST(response_b[, -1], response_b$mode, 

match set = anchor, suspect_set = suspect[j]) 
# 将 结果 储存 于 矩阵 相应 位 置 
beta_statistic[j, 1] <- dif_item$beta[1] 
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Test mode effect: Sources, detection, and applications 


CHEN Ping, DAI Yi, HUANG Yingshi 


(Collaborative Innovation Center of Assessment for Basic Education Quality, Beijing Normal University, 


Beijing 100875, China) 


Abstract: Test mode effect (TME) refers to the difference in test function caused by the 
administration of the same test in different test modes. The existence of TME will have an impact 
on test fairness, selection criteria and test equating, so it is of great significance to accurately 
detect and interpret TME. By systematically sorting out the source, detection (including the 
experimental design and detection methods) and research results of TME, the methodology of 
TME research is comprehensively demonstrated. Further interpretation of the TME model, 
expansion of the test modes in TME research, and application of TME research results to large- 
scale educational assessment programs in China, are important future development directions in 
the field of TME. 


Key words: test mode effect, test fairness, measurement invariance, computer-based testing 
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